Variable central

Column

Mapa mundial

Gráfico 2

Column

Histograma de la variable dependiente

Estadísticos de la variable dependiente

Medidas de Tendencia Central y Dispersión del Índice de Corrupción
Medida Valor
Media 47.68
Mediana 47.68
Desviación Estándar 28.03
IQR (Rango Intercuartílico) 49.70
Mínimo 0.30
Máximo 96.70
Cuartil 1 (Q1) 23.40
Cuartil 3 (Q3) 73.10

Column

Análisis previo

  • A partir del cuadro con tendencias centrales y dispersión, a priori, se puede observar que el caso mínimo es 0.3 y el caso máximo representa 96.7.
  • Del mismo modo, mayormente existen tonalidades rojizas, lo cual indica que puede haber más casos de países con un mayor indice de corrupción a comparación de los que presentan poco.
  • Tanto la media como la mediana son prácticamente iguales. Así, la mayoría de datos puede estar centrada en dicho valor.
  • No existe una asimetría muy preocupante. No obstante, parece haber cierta variabilidad en cuanto al IQR; es decir, hay dispersión entre el Q1 y Q3.

Correlaciones numéricas

Column {data-width=600}

Matriz de correlación (Cuadro)

Pol_corruption_index Democracy_index GDP_per_capita Unemployment_rate Press_freedom_index
Pol_corruption_index 1.00 -0.73 -0.64 0.16 0.62
Democracy_index -0.73 1.00 0.51 -0.10 -0.77
GDP_per_capita -0.64 0.51 1.00 -0.21 -0.29
Unemployment_rate 0.16 -0.10 -0.21 1.00 0.09
Press_freedom_index 0.62 -0.77 -0.29 0.09 1.00

Corrupción y democracia

Corrupción y GDP

Corrupción y desempleo

Corrupción y libertad de prensa

Column {data-width=600}

Corrplot

Corrupción y Democracia


    Pearson's product-moment correlation

data:  data$Democracy_index and data$Pol_corruption_index
t = -14.595, df = 199, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.7798233 -0.6447975
sample estimates:
       cor 
-0.7190286 
  • Aparentemente, a partir del gráfico entre ambas variables, existe una correlación negativa fuerte.
  • A partir del coeficiente de correlación de Pearson, se obtiene que lo anterior sí es verdad.
  • En tal sentido, es fuerte y, en cuanto a su dirección,mientras una variable aumenta la otra disminuye, ya que su signo es negativo (-0.7190).
  • Según el criterio de Cohen, esta correlación es alta.
  • Además, esta correlación es estadisticamente significativa, ya que al ser su p-value menor a 0.05, se rechaza la hipótesis nula de que no existe correlación lineal.

Corrupción y GDP


    Pearson's product-moment correlation

data:  data$GDP_per_capita and data$Pol_corruption_index
t = -10.344, df = 199, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.6745140 -0.4932924
sample estimates:
       cor 
-0.5913183 
  • Aparentemente, a partir del gráfico entre ambas variables, visualmente existe una correlación negativa fuerte.
  • A partir del coeficiente de correlación de Pearson, se obtiene que lo anterior sí es verdad.
  • En tal sentido, es fuerte y, en cuanto a su dirección,mientras una variable aumenta la otra disminuye, ya que su signo es negativo (-0.5913).
  • Según el criterio de Cohen, esta correlación es alta.
  • Además, esta correlación es estadisticamente significativa, ya que al ser su p-value menor a 0.05, se rechaza la hipótesis nula de que no existe correlación lineal.

Corrupción y desempleo


    Pearson's product-moment correlation

data:  data$Unemployment_rate and data$Pol_corruption_index
t = 1.897, df = 179, p-value = 0.05944
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.005587066  0.280499271
sample estimates:
      cor 
0.1403851 
  • Aparentemente, a partir del gráfico entre ambas variables, visualmente existe una correlación positiva débil al estar los casos un tanto dispersos.
  • A partir del coeficiente de correlación de Pearson, se obtiene que lo anterior sí es verdad.
  • En tal sentido, es débil y, en cuanto a su dirección,mientras una variable aumenta la otra aumenta, ya que su signo es positivo (0.1403).
  • Según el criterio de Cohen, esta correlación es pequeña.
  • Además, esta correlación no es estadisticamente significativa, ya que al ser su p-value un poco mayor a 0.05, se acepta la hipótesis nula de que no existe correlación lineal. No obstante, incluirla en una regresión múltiple (OLS) más adelante genera beneficios significativos para el modelo en general de regresión.

Corrupción y libertad de prensa


    Pearson's product-moment correlation

data:  data$Press_freedom_index and data$Pol_corruption_index
t = 10.429, df = 175, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5190055 0.7024631
sample estimates:
      cor 
0.6191109 
  • Aparentemente, a partir del gráfico entre ambas variables, visualmente existe una correlación positiva fuerte.
  • A partir del coeficiente de correlación de Pearson, se obtiene que lo anterior sí es verdad.
  • En tal sentido, es fuerte y, en cuanto a su dirección,mientras una variable aumenta la otra aumenta, ya que su signo es positivo (0.6191).
  • Según el criterio de Cohen, esta correlación es alta.
  • Además, esta correlación es estadisticamente significativa, ya que al ser su p-value menor a 0.05, se rechaza la hipótesis nula de que no existe correlación lineal.

Correlaciones no numéricas

Column

Correlación entre Corrupción y Leyes transparentes

Diferencia de ‘VD:Indice de corrupción’ por Grupo
colCats diffPara diffNoPara
Transp_laws TRUE TRUE

Box plot

Column

Observaciones

  • Según el box plot, la mediana de la variable central es difrente entre los grupos de Transp_laws.
  • Al observar su IQR, se tiene que la caja del grupo (0) es más alta que la otras. Así, en esta existe más dispersión en los datos.
  • La variable Transp_laws muestra TRUE para ambas pruebas (diffPara y diffNoPara). Se puede decir que hay una diferencia estadísticamente significativa en los valores de Pol_corruption_index entre los dos grupos de Transp_laws.
  • En tal sentido, existe una relación significativa entre Pol_corruption_index y Transp_laws.

Regresión Lineal Múltiple

Column

Regresión estandarizada 1

Regresión: modelo con coeficientes estandarizados
Índice de corrupción estandarizado
(Intercept) 0.022
(0.048)
scale(Democracy_index) -0.323***
(0.079)
scale(GDP_per_capita) -0.350***
(0.062)
scale(as.numeric(Transp_laws)) -0.201**
(0.064)
scale(Unemployment_rate) 0.035
(0.050)
scale(Press_freedom_index) 0.176*
(0.078)
Num.Obs. 167
R2 0.679
R2 Adj. 0.669
AIC 322.2
BIC 344.1
Log.Lik. -154.123
F 68.157
RMSE 0.61
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Column

Regresión estandarizada 2

Regresion: modelo con coeficientes estandarizados usando lm.beta()
Regresión múltiple
Democracy_index -0.326
(1.019)
GDP_per_capita -0.329
(0.000)
Transp_laws -0.185***
(4.107)
Unemployment_rate 0.032
(0.252)
Press_freedom_index 0.166
(0.138)
Num.Obs. 167
R2 0.679
R2 Adj. 0.669
AIC 1435.5
BIC 1457.3
Log.Lik. -710.762
RMSE 17.07
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Column

Conclusiones

  • La regresión toma en cuenta todos los predictores al mismo tiempo.
  • El modelo es válido.
  • La primera regresión cuenta con una estandarización manual, pero la segunda es más accesible, ya que el paquete “lm.beta” lo hace directamente.
  • Además, siguiendo nuestro intervalo, diremos que el modelo tiene un ALTO nivel explicativo, dado que el R2 ajustado es de 0.669 (66.90% de la variabilidad de Y es explicada por nuestras X´s).
  • Vemos que la variable que tendría mayor impacto es Transp Laws.
  • En tal sentido,SÍ tiene efecto significativo al 0.001; ese efecto no es directo, puesto que el coeficiente calculado es negativo; y la magnitud de ese efecto es -0.185, lo que indica que el indice de corrupción disminuye en promedio en 0.185 cuando Transp Laws es 1 y no 0 controlado la variable de control.
  • Se puede decir que, entre todas las variables analizadas, Transp_laws es la que más contribuye a explicar la variabilidad en el índice de corrupción. Esto sugiere que las leyes de transparencia tienen un impacto importante y significativo en la reducción de la corrupción.

Diagnósticos de la regresión

Column {data-width=600}

Linealidad

Homocedasticidad

Normalidad de residuos

No multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
Democracy_index 3.164837
GDP_per_capita 1.692874
Transp_laws 1.754832
Unemployment_rate 1.048811
Press_freedom_index 2.740494

Valores influyentes

Column {data-width=600}

Linealidad

  • Se puede apreciar que la linea roja tiende a ser horizontal

Homocedasticidad

studentized Breusch-Pagan test
BP df p.value
BP 10.47037 5 0.062953
  • Al ser la hipótesis nula de que los errores son homocedásticos, el p-valor resulta mayor a 0.05.
  • En tal sentido, no se rechaza la hipótesis nula, por lo que los errores son homocedásticos
  • Así, la varianza de los errores es constante y no muestra un patrón.

Normalidad de residuos

Shapiro-Wilk normality test
SW p.value
W 0.9856525 0.0839935
  • El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, por ejemplo 0,05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.
  • Al ser el p-valor mayor a 0.05, esto indica que los residuos (la distancia entre el valor esperado y el valor observado) se distribuyen de manera normal.

No multicolinealidad

  • Cabe destacar que la presencia de la multicolinealidad no perjudica tanto el calculo de Indice de corrupción, pero evita calcular bien el efecto de cada regresor.
  • Al ser todas menores a 5, no hay una correlación muy alta entre predictores lo cual es bueno.

Valores influyentes

Valores Influyentes criticos
cook.d hat
NA NA
:—— :—
  • No existen valores influyentes, en tal sentido, no se afecta los calculos de la regresión.

Clusterización via Partición

Column

Estrategia de partición y número de clusters

Evaluando el uso de PAM

Column

Valores mal clusterizados

 [1] "Argentina"         "Armenia"           "Bangladesh"       
 [4] "Egypt"             "Equatorial Guinea" "Lebanon"          
 [7] "Malaysia"          "Maldives"          "Morocco"          
[10] "Sierra Leone"      "Sri Lanka"         "Turkey"           
  • Existe más pertenencia al cluster 5.

Gráfica PAM

Clusterización via Jerárquica

Column

Evaluando el uso de AGNES

Valores mal clusterizados

 [1] "Angola"               "Australia"            "Bangladesh"          
 [4] "Belgium"              "Bhutan"               "Cape Verde"          
 [7] "Guinea"               "Guinea-Bissau"        "Iran"                
[10] "Laos"                 "Mali"                 "Mauritania"          
[13] "Morocco"              "Namibia"              "Nepal"               
[16] "North Macedonia"      "Oman"                 "Panama"              
[19] "Qatar"                "Syria"                "Turkey"              
[22] "Turkmenistan"         "United Arab Emirates" "Zimbabwe"            

Column

Evaluando el uso de DIANA

Valores mal clusterizados

[1] "Austria"